2장. 데이터 입수 - data acquision
데이터 분석을 하려면 분석할 데이터가 있어야 한다. 당연하지만 분석할 데이터가 없거나 어떤 분석을 하고 싶은데 분석을 하는데 필요한 데이터를 얻을 수 없는 경우가 실제로는 많다. 데이터는 이제 금과 같은 것으로 취급되며 사람들도 많은 가치를 가진 것으로 인식하고 있다. 금과 데이터가 다른 점은 금은 대부분의 사람에게 가치가 있지만 데이터는 그 데이터를 필요로하는 활용이 가능한 사람에게 가치가 있다는 점이다. 또 데이터는 직관적으로 가치를 측정할 수 없고 많은 종류와 유형의 데이터가 각기 달라서 대부분 희소성이 금 보다는 더 높다. 쉽게 말해서 금은 구매할 돈이 있다면 동일한 품질의 금을 어디에서든 구할 수 있지만 데이터는 어떤 조직에서만 가지고 있고 조직외부에 판매하거나 공유하지 않는 독점적인 데이터라면 그 데이터를 얻을 수 없게 된다.
데이터 분석가가 데이터 입수까지 고민해야 하는지에 대한 논쟁이 과거에 있었지만 그 때는 데이터 관련 업무가 비교적 잘게 분리되어 운용되던 시기의 일이다. 데이터 분석과 관련된 직업은 데이터 엔지니어, 데이터베이스 관리자, 데이터 분석가, 데이터 과학자, 데이터 플랫폼 운영자와 같이 비교적 많다. 데이터 입수는 데이터 엔지니어와 데이터 과학자들이 맡아서 했던 일이고 전담분야이긴 하지만 데이터 분석가는 그런 일에 대해서는 몰라도 된다는 것은 아니다. 데이터가 어떻게 들어왔고 어디에 있으며 사용하기 위해서는 어떤 것을 더 해야하는지에 대한 이해는 데이터 분석을 하는 일에도 큰 영향을 준다. 분석하고 싶은 데이터가 아직 없다면 추가로 입수할 수 있는디 다른 시스템에서 가져올 수 있는지 여러 데이터를 병합해야 하는지 알고 있어야 한다.
회사나 연구소 같은 조직 내의 중요한 데이터라면 조직내에 이미 데이터를 전문적으로 관리하고 있는 사람이나 부서가 있을 것이므로 그쪽에 요청해서 데이터를 전달 받거나 접근 허가를 얻어서 데이터베이스나 저장소(storage, 스토리지)에 직접 접근해서 받아 올 수도 있다. 하지만 조직내에서 구할 수 없는 데이터는 외부로 부터 공급받아야 하는데 데이터 거래시장을 이용하거나 직접 구매해야하는데 어려운 문제다.
개인정보와 정보보안
데이터를 판매하거나 주고 받을 때 개인정보가 포함되어 있거나 주고받은 데이터로 어느 누군가가 개인을 식발할 수 없게 해야 하는 규제가 있다. 이런 규제는 전세계적인 추세이고 과거보다 많이 일반화가 되어 지금은 무조건 지켜야 한다. 개인정보가 포함된 데이터는 조직내에 데이터라면 허가를 받아 접근이 가능할 수도 있지만 외부 데이터라면 매우 특별하게 허융된 경우가 아니라면 얻을 수가 없다.
개인정보의 가치
개인정보는 사실 가치를 얻어내기에 매우 좋은 데이터이다. 이름, 주민등록번호, 전화번호, 집주소, 이메일과 같은 같은 민감정보들은 그 자체로도 돈을 주고 거래하는 경우도 많았다. 물론 불법이다. 개인정보가 가치가 높은 이유는 주민등록번호는 출생년와 성별, 출생지역을 알 수 있으며 집주소를 알게 되면 라이프스타일에 대해서 유추할 수 있으며 지역을 기반으로 한 마케팅 타겟팅에 활용할 수 있게 된다. 이름과 전화번호, 이메일은 다이렉트 마케팅(DM)에 바로 활용된다. 흔히 스팸이라고 부르는 것들이다. 악의를 가진다면 범죄에 이용할 수 있으며 흔히 많이 걸리는 보이스피싱이나 온라인피싱과 같은 사기행위다.
개인정보와 개인이 식별되는 문제로 데이터 교환 또는 거래에는 몇가지 처리를 미리 하도록 권고되고 있다. 사실상 강제사항이다. 데이터 분석가가 정보보호에 대해서 깊이 알아야 하는 것은 아니지만 적어도 민감정보가 포함된 데이터는 비식별 처리를 해서 제공받는다고 생각해야 하며 분석 보고서를 작성하고 요약 데이터를 제공할 때도 그 부분을 주의해야 한다. 따라서 기본적인 것은 알아두어야 한다.
K익명성
K익명성(K-anonymity)은 개인정보 보호를 위한 매우 중요한 개념이다. 데이터셋에서 특정 개인을 식별할 수 없도록 하는 방법인데 K익명성이 보장된 데이터셋에서는 각 레코드가 적어도 K-1개의 다른 레코드와 구별할 수 없게 하는 것이다.
K익명성의 핵심 개념
((프롬프트)): K익명성의 정의와 개념에 대해서 쉽고 간단하게 설명해주세요
((AI챗봇 답)):
K익명성은 개인정보가 포함된 데이터를 외부에 제공하거나 분석할 때, 한 사람을 쉽게 알아볼 수 없도록 만드는 방법입니다.
쉽게 말해, 데이터 안에 있는 각각의 사람이 적어도 K명 이상과 구별되지 않게 만드는 것입니다.
예를 들어 K=3이라면, 내 정보와 똑같은(혹은 구별할 수 없는) 정보가 데이터 안에 3개 이상 있어야 합니다.
이렇게 하면 누가 누구인지 특정하기 어려워져서 개인정보가 보호됩니다.
여기서 K는 지정할 임의의 숫자를 말하는데 보통 3에서 5를 쓰도록 권하고 있다. AI챗봇의 답을 다시 정리하면
- 정의: 데이터셋에서 각 레코드가 최소 K개 이상의 동일한 특성을 가진 레코드가 없어야 함
- 목적: 개인 식별 가능성을 낮추어 개인정보(프라이버시, privacy) 보호
- 적용 방법: 식별자는 제거 또는 마스킹, 준식별자는 일반화 또는 마스킹 등
식별자는 이름과 주민등록번호, 전화번호와 같이 개인을 알아낼 수 있는 유일한 값이고 준식별자는 나이, 성별, 우편번호와 같이 개인을 알아낼 수 있는 값이지만 개인을 식별하는데 이용할도 수 있고 식별을 가능하게 보조하게 될 여지가 있는 값을 말한다. 우편번호가 준식별자인 이유는 우편번호로 사는 지역을 알 수 있으며 매우 소수의 인구만 사는 지역이 있고 다른 데이터와 결합해서 개인을 식별이 가능할 수 도 있기 때문이다. 예를들면 극단적인 억지일 수 있지만 남해의 어느 섬에 3명이 살고 있고 우편번호가 따로 부여 되어 있다면 그 중에 한명만 남자라면 성별과 우편번호로 개인 식별이 가능해지는 것이다.
예시
원본 데이터
이름 | 나이 | 성별 | 우편번호 | 질병 |
---|---|---|---|---|
김철수 | 23 | 남 | 12345 | 당뇨 |
이영희 | 25 | 여 | 12346 | 고혈압 |
박민수 | 23 | 남 | 12347 | 천식 |
K=2 익명화 후
나이 | 성별 | 우편번호 | 질병 |
---|---|---|---|
20-25 | 남 | 1234* | 당뇨 |
20-25 | 여 | 1234* | 고혈압 |
20-25 | 남 | 1234* | 천식 |
위에서는 식별자는 이름이며, 준식별자는 우편번호이다.
K익명성의 한계
K익명성만으로는 완벽한 개인정보 보호가 어려워서 이를 보완하기 위해 다음과 같은 추가 개념들이 있다.
- L-다양성(L-diversity): 민감한 속성이 각 동질 그룹 내에서 최소 L개의 서로 다른 값을 가지도록 보장
- T-근접성(T-closeness): 각 동질 그룹 내 민감한 속성의 분포가 전체 데이터셋의 분포와 T 이하의 차이를 가지도록 함
위에서 말하는 L과 T도 지정하는 숫자를 말하며 권장하는 값들이 있다.
((프롬프트)): L다양성과 T근접성에서 권장하는 L과 T값은?
((AI챗봇 답)):
L-다양성(L-diversity)에서 권장하는 L값은 보통 25 사이를 많이 사용합니다.5개 정도 다양하게 존재하도록 하는 것이 일반적입니다.
즉, 각 동질 그룹(익명화된 그룹) 내에 민감한 정보가 최소 2개 이상, 보통 3
너무 작은 L값(예: 1)은 의미가 없고, 너무 크면 데이터 활용성이 떨어질 수 있습니다.
T-근접성(T-closeness)에서 권장하는 T값은 0.1(10%) 이하를 많이 사용합니다.
즉, 각 그룹 내 민감 정보의 분포가 전체 데이터 분포와 10% 이내로 차이나도록 설정하는 것이 일반적입니다.
T값이 작을수록 개인정보 보호는 강해지지만, 데이터의 활용도는 낮아질 수 있습니다.
실제로 사용할 L과 T값은 데이터의 민감도, 활용 목적, 법적 요구사항 등에 따라 달라질 수 있으니 상황에 맞게 결정해야 합니다.
더 깊은 내용은 정보보안에서 다룰 내용이다. 데이터 분석 관점에서 기억할 것은 민감정보는 모두 제거되서 제공되고 유일한 값들은 모두 유일하지 않게 묶여서 제공될 것이라는 것이다. 이렇게 데이터를 익명화하면 구체적인 정보가 다 사라지므로 가치가 매우 떨어지고 그 데이터에 의존성이 많은 분석이라면 결과가 모호해 질 수 있다. 회사나 연구소내에 데이터는 익명화하지 않고 분석할 수 있지만 다른 곳의 데이터는 반드시 익명화가 되어 있기 때문에 분석하기 전에 고민이 필요하다.
데이터 입수 방법 구분
데이터 입수 방법은 종류가 많지는 않다. 조직안에 있는 데이터 시스템에 저장되어 있지 않다면 구매하거나 받아오거나 이제부터 쌓는 것이다.
공개 데이터 활용
- 정부 및 공공기관 오픈 데이터
- 학술 연구 데이터셋
- 기업이 공개한 데이터셋
데이터 구매/라이센스
- 데이터 마켓플레이스 이용
- 전문 데이터 제공업체 데이터
- 특정 산업 데이터 구독 서비스 이용
웹 크롤링/스크래핑
- 웹사이트에서 데이터 수집
- API를 통한 데이터 수집
- 소셜 미디어 데이터 수집
자체 데이터 생성
- 설문조사 및 인터뷰
- 센서 및 IoT 기기 활용
- 사용자 행동 로깅
데이터 교환/협업
- 파트너십을 통한 데이터 공유
- 데이터 컨소시엄 참여
- 익명화된 데이터 교환
쓸만한 외부 데이터를 구하기 어려운 이유
외부 데이터를 구하기는 쉽지만 쓸만한 데이터는 구하기 어려운 경우가 많다. 앞에서 설명한 것 처럼 데이터를 외부로부터 얻으려면 구매, 교환, 스크랩핑, 다운로드 등이 있고 무상으로 얻을 수 있는 것은 공공데이터 정도가 있다. 가장 가치 있는 것은 특정 조직이 소유하고 있는 것들이기 때문에 구매해야 하는데 구매하려면 데이터 소유자 또는 데이터 보유자가 그 데이터를 판매할 의사가 있어야 한다. 하지만 그럴 의사가 없는 경우가 매우 많다. 교환의 경우도 마찬가지인데 어느쪽 데이터가 더 가치가 있는지 계산하기 쉽지 않으며 대부분 자신의 데이터는 공개하지 않고 다른 데이터의 조직을 사거나 받아가려는 경우가 더 많다. 데이터 거래 시장에서는 공급보다는 수요가 더 많은 것이다. 원하는 데이터를 구매할 수 있다는 보장이 없으며 원하는 데이터는 아예 판매하지 않아 구하기 어려운 경우가 많다. 그렇다고 해서 데이터 교환이 아예 없는 것이 아니므로 여럽긴 하지만 논의에 따라 입수가 가능하기도 하다. 즉 해봐야 아는 것이기 때문에 미리 데이터 분석 계획을 세울 때 데이터를 입수할 수 있다고 가정하는 것는 위험하다.
데이터 거래시장 Data marketplace
국내에도 데이터 거래시장이 있다. 온라인으로 서비스를 제공하며 무료 또는 유로로 데이터를 구할 수 있다.
국내 주요 데이터 거래 플랫폼 정리
한국에는 다양한 민간 및 공공 데이터 거래 플랫폼이 운영되고 있다. 아래는 대표적인 한국의 데이터 거래소와 플랫폼을 정리한 것이다.
민간 데이터 거래 플랫폼
-
KDX 한국데이터거래소
국내 최초의 유통·소비 분야 민간 데이터 거래소로, 2019년 12월에 출범했다.
7,000여 개의 오리지널 데이터셋과 10만여 개의 민간·공공 데이터셋을 거래할 수 있는 대규모 빅데이터 플랫폼이다.
kdx.kr -
KADX 농식품 빅데이터 거래소
농업, 축산, 유통, 소비, 국제 분야의 농식품 빅데이터를 판매하며, 데이터 활용 사례, 동영상, 보고서 등 부가 서비스도 제공한다. -
금융데이터거래소
신용카드 결제, 대출 서비스 등 금융권 데이터를 거래할 수 있는 플랫폼이다. 데이터 협업, 분석, 광고 서비스도 지원한다. -
한국거래소 정보데이터시스템 (KRX Data)
증권, 파생상품 시장정보, 공매도 정보, 투자분석정보 등을 통합 제공하며, API 기반 데이터 거래도 지원한다. -
DX 데이터 상품 (bigdata-dx)
한국산업기술시험원 등 공공 연구기관과 민간기업의 데이터를 매매할 수 있는 데이터 마켓 서비스로, 다양한 기업별 데이터 상품을 제공한다. -
부동산 빅데이터 거래소 (REB Real Estate Big Data)
한국부동산원이 운영하는 플랫폼으로, 부동산 시장 통계, 보고서, 빅데이터 상품을 구매할 수 있다. -
국가교통 데이터 오픈마켓
한국도로공사가 운영하는 교통 데이터 유통 플랫폼으로, 교통 빅데이터 상품을 누구나 구매·판매할 수 있다.
** 공공 및 전문 데이터 거래 플랫폼 **
-
AI 허브 (NIA)
20여 개 분야별 빅데이터 플랫폼이 연계되어 다양한 외부 데이터를 제공한다. -
ETRI 플랫폼
인공지능, 통신 등 다양한 연구 데이터를 제공한다. -
가명정보 지원 플랫폼(합성데이터)
개인정보 보호를 위한 합성 데이터 및 가명정보를 제공한다. -
공공 데이터 포털 (data.go.kr)
정부 및 공공기관의 다양한 데이터를 무료로 개방·제공하는 대표 포털이다. -
디지털산업혁신 빅데이터 플랫폼
산업별 디지털 혁신을 위한 데이터를 제공한다. -
기타 분야별 빅데이터 플랫폼
- 라이프로그, 농식품, 해양수산, 스마트치안, 소방안전, 산림, 지역경제, 중소기업, 금융, 환경, 교통, 헬스케어, 유통, 통신, 문화 등 다양한 분야별 빅데이터 플랫폼이 운영되고 있다.
- 통합 데이터 지도 등 데이터 위치 및 현황을 한눈에 볼 수 있는 서비스도 제공된다.
** 기타 공공 데이터 거래 플랫폼**
-
한국데이터진흥원 데이터스토어
공공·민간 데이터 거래를 지원하는 데이터 유통·구매 플랫폼이다. -
환경비즈니스 빅데이터 플랫폼
한국수자원공사가 제공하는 환경 분야 빅데이터 플랫폼으로, 수자원 및 환경 데이터를 전문적으로 거래할 수 있다.
이처럼 다양한 데이터 거래 플랫폼이 존재하며 각 플랫폼마다 제공하는 데이터의 종류와 서비스가 다르기 때문에 목적에 맞는 플랫폼을 선택해서 활용하는 것이 중요하다. 급할 때 원하는 데이터가 있는지 찾아봐도 되지만 어떤 플랫폼에 어떤 데이터가 있는지 어느 정도 미리 알아두면 실제 분석 작업을 할 때 시간 절약을 많이 할 수 있다.
데이터 직접 구매
구매는 당연히 대가를 주고 사는 것을 말하는데 실제로 데이터를 사고파는 것은 어렵다. 먼저 개인정보를 제거하거나 마스킹(masking, 가리는 일)을 하고 비식별 처리를 해야 하기 때문이다. 그런데 처리와 관련없이 데이터의 희소성 때문에 특별한 어떤 기관은 자신들만 가지고 있는 데이터를 쉽게 판매하려고 하지 않는 경우가 많다. 판매할 의사가 있더라도 매우 높은 가격을 요구한다. 다른데서 구할 수 없는 독점적 데이터는 가치를 부여하기도 힘들고 부르는 것이 가격이 되기 때문이다. 데이터 거래시장에서는 대부분 데이터를 사려는 구매자는 많지만 쓸모 있고 값진 데이터를 판매하려는 판매자는 구하기 어렵다. 서로 없는 데이터를 교환하는 것은 어느 정도 되고 있지만 활발하지 않다. 예를 들어 전자책에서 추출한 텍스트, 동물이나 사람 풍경 이미지, 동영상과 같은 벌크 데이터는 구매해서 구할 수 있지만 넷플릭스의 사용자의 영상별 시청 로그, 이커머스의 상품 판매 데이터, 통신사의 통화 이용 로그 데이터, 카드사의 카드 이용 로그 데이터와 같은 것은 구매할 수 없다는 것이다. 그리고 원천에 가까운 상세 데이터를 제공하지 않고 이미 집계가 다 끝난 통계데이터를 제공하는 경우도 있는데 이런 데이터는 보고서나 기사를 쓸 때 참고할 수는 있겠지만 실제 데이터 분석 작업에는 크게 유용하지 않다.
내부 데이터 (Internal Data)
내부 데이터는 조직(회사 또는 기관)의 내부 데이터이다. 내부 데이터는 조직이 어떤 비즈니스를 하는지에 따라 달라지며 어느 시스템에 있는지에 따라 달라지기도 한다. 같은 조직내에 데이터가 있다면 데이터 입수 절차가 따로 필요없거나 쉬울 것이다. 내부에 쌓인 데이터는 조직이 하는 주요 비즈니스에 큰 관련이 있을 것이다. 예를 들어 비즈니스가 OTT플랫폼이라면 유튜브 영상별 시청 로그, 이커머스라면 상품 판매 데이터, 통신사라면 통화 이용 로그 데이터, 카드사라면 카드 이용 로그 데이터가 된다. 서비스업 뿐만 아니라 농업, 제조업과 같은 산업도 당연히 데이터가 있다.
내부 데이터 가져오기
내부 시스템이라면 데이터를 어디에서 가져와야 할까? 확실하게 확인하려면 시스템을 담당하고 있는 부서에 확인하면 되겠지만 일반적인 조직들이 공통적으로 어느 곳에 데이터를 저장하고 관리하는지 상식으로 알고 있는것이 좋다.
조직마다 데이터를 저장하고 관리하는 방식이 다르기 때문에 공통화하기 어렵지만 공통적으로 매우 중요하고 비즈니스를 운영하는데 필요한 데이터는 관계형데이터베이스(RDMS)에 적재한다. 운영 데이터베이스를 production database라고 하고 백업 데이터베이스를 backup database라고 하는데 실제 운영에 사용하고 있기 때문에 운영 데이터베이스에서 분석을 하기 위해서 직접 데이터를 가져오는 것을 금지하는 곳도 몮다. 데이터를 추출하느라 운영 시스템에 부하를 주어 서비스에 장애를 유발할 수 있기 때문이다. 그래서 분석용 데이터베이스를 별도로 유지하거나 분석처리용 데이터베이스를 따로 운영하는 것도 많다. 이런저런 것 없이 빅데이터 플랫폼을 운영해서 여기저기 데이터를 다 넣고 분석하거나 재처리해서 사용하도록 하는 곳도 많다.
담당자에게 요청하기
어떤 조직이든 절차가 있을 것이고 절차를 지켜서 담당자에 원하는 데이터와 포맷을 알려주고 데이터를 요청하는 것이다. 보통 CSV나 엑셀(Microsoft Excel) 파일로 주는 경우가 많고 JSON, Parquet 파일같은 형식으로 주는 경우도 있다. 데이터를 꺼내 오는 곳은 관계형 데이터베이스, 빅데이터 플랫폼, 스토리지, 외부 클라우드 서비스 등인데 각각 데이터 소스의 유형에 따라 방법과 걸리는 시간, 파일 포맷, 데이터의 유무가 모두 다를 것이고 때로는 한 군에데 모여 있지 않아 여러 군데에서 따로 가져와 결합해야 할 수 있다. 데이터 결합은 보통 데이터 엔지니어가 있다면 처리해 주겠지만 그렇지 않다면 직접해야 할 것이다. 데이터 엔지니어가 있더라도 작고 간단한 데이터 결합은 데이터 분석가도 할 수 있어야 한다.
접근권한을 얻어 가져오기
데이터베이스에 접근할 수 있는 권한을 얻어 직접 데이터를 가져오는 것이다. 이때 먼저해야 한 것은 접근권한과 접속할 수 있는 계정 정보를 얻는 것이다.
데이터베이스에 데이터 가져오기
관계형 데이터베이스, 빅데이터 플랫폼, 스토리지등에 에 접근할 수 있는 권한을 얻었다면 다음과 같은 방법으로 데이터를 가져올 수 있다:
-
SQL 쿼리 사용: 관계형 데이터베이스에서는 SQL 쿼리를 작성하여 필요한 데이터를 추출한다. 예를 들어
SELECT * FROM customers WHERE signup_date > '2023-01-01';
-
데이터베이스 클라이언트 도구 활용: MySQL Workbench, pgAdmin, DBeaver 등의 도구를 사용하여 데이터베이스에 접속하고 데이터를 추출할 수 있다.
-
프로그래밍 언어와 라이브러리 활용: Python, R 등의 프로그래밍 언어와 해당 데이터베이스 연결 라이브러리를 사용하여 데이터를 가져올 수 있다.
API를 통해 가져오기
많은 현대 시스템은 API(Application Programming Interface)를 제공한다. API를 통해 데이터를 요청하면 JSON, XML 등의 형식으로 응답을 받을 수 있다. API를 사용하면 데이터베이스에 직접 접근하지 않고도 필요한 데이터를 안전하게 가져올 수 있다는 장점이 있다.
데이터 웨어하우스나 데이터 레이크 활용
대규모 조직에서는 데이터 웨어하우스나 데이터 레이크와 같은 중앙 집중식 데이터 저장소를 운영하는 경우가 많다. 이러한 시스템에서는 다양한 소스의 데이터가 이미 통합되어 있어, 분석 목적으로 쉽게 접근할 수 있다.
외부 데이터 수집 방법
공개 데이터셋 활용
많은 정부 기관, 연구 기관, 기업들이 공개 데이터셋을 제공한다. 이러한 데이터셋은 무료로 사용할 수 있으며, 다양한 분야의 데이터를 포함하고 있다.
- 공공 데이터 포털: 각국 정부에서 운영하는 공공 데이터 포털(예: 한국의 공공데이터포털, 미국의 Data.gov)
- 연구 데이터셋: Kaggle, UCI Machine Learning Repository 등
- 기업 공개 데이터: Google Dataset Search, AWS Open Data 등
웹 크롤링(Web Crawling)
웹 크롤링은 웹사이트에서 자동으로 데이터를 수집하는 기술이다. 파이썬의 BeautifulSoup, Scrapy 등의 라이브러리를 사용하여 구현할 수 있다. 단, 웹 크롤링 시 다음 사항을 고려해야 한다:
- 웹사이트의 이용약관 및 robots.txt 파일 확인
- 저작권 및 개인정보 보호 법규 준수
- 서버에 과도한 부하를 주지 않도록 적절한 간격으로 요청
소셜 미디어 API
Twitter, Facebook, Instagram 등의 소셜 미디어 플랫폼은 API를 통해 데이터를 수집할 수 있는 방법을 제공한다. 이를 통해 사용자 게시물, 댓글, 해시태그 등의 데이터를 수집할 수 있다.
데이터 마켓플레이스
데이터 마켓플레이스는 데이터를 사고팔 수 있는 온라인 플랫폼이다. 다양한 산업 분야의 데이터를 구매할 수 있으며, 일부는 무료로 제공되기도 한다.
- Snowflake Data Marketplace
- AWS Data Exchange
- Bloomberg Data License
- Refinitiv (구 Thomson Reuters)